Model Selection

Low Word Error Rate

# Low Word Error Rate

Phi 4 Mm Inst Asr Singlish

A multimodal speech recognition model optimized for Singapore English, fine-tuned based on Microsoft's Phi-4 multimodal instruction model, significantly improving recognition of Singapore English's unique phonetic features.

Transformers Supports Multiple Languages

Hubert Base Librispeech Demo Colab

A speech recognition model fine-tuned from facebook/hubert-large-ls960-ft, trained on the LibriSpeech dataset

Speech Recognition

Wav2vec2 Base Librispeech Demo Colab

This model is a speech recognition model fine-tuned on the LibriSpeech dataset based on facebook/wav2vec2-base, achieving a word error rate of 0.3174 on the evaluation set.

Speech Recognition

Whisper Large V3 French Distil Dec16 Ct2

This is a distilled version of Whisper Large V3 specifically optimized for French automatic speech recognition, achieving efficient inference through ctranslate2.

Speech Recognition French

Indian Accent English Whisper Finetuned Epoch 15

An Indian English accent speech recognition model fine-tuned based on OpenAI Whisper-large-v3-turbo, achieving a 7.99% word error rate on Indian English accent datasets

Speech Recognition

Transformers English

Lite Whisper Large V3 Turbo Acc

Lite-Whisper is a lightweight version of OpenAI Whisper compressed using LiteASR technology, maintaining high accuracy while reducing model size.

Speech Recognition

efficient-speech

Whisper Finetuned

Whisper-large-v3-turbo fine-tuned model for Indian English accent speech recognition, with a word error rate of 4.39%

Speech Recognition

Transformers English

Audiox South V1

AudioX is a multilingual automatic speech recognition model developed by Jivi AI, specifically optimized for South Indian languages, supporting Tamil, Telugu, Kannada, and Malayalam.

Speech Recognition Other

Whisper Large V3 Turbo Shqip

An Albanian-optimized speech recognition model based on OpenAI Whisper Large v3 Turbo, supporting standard Albanian and Gheg dialect

Speech Recognition

Transformers Other

Distil Large V3.5

Distil-Whisper is a knowledge-distilled version of OpenAI Whisper-Large-v3, achieving efficient speech recognition through large-scale pseudo-label training.

Speech Recognition

Transformers English

Voice Clone Large Finetune Final

This model is a voice cloning model fine-tuned based on openai/whisper-large-v3, primarily used for speech recognition tasks, achieving a word error rate of 15.3572 on the evaluation set.

Speech Recognition

Whisper Large V3 Turbo German Ct2

A German speech recognition model based on Whisper Large v3, optimized for German speech processing and recognition

Speech Recognition

Transformers German

Whisper Large V3 Turbo Common Voice 19 0 Zh TW

A fine-tuned Traditional Chinese (Taiwan) automatic speech recognition model based on OpenAI Whisper-large-v3-turbo

Speech Recognition

Transformers Chinese

Pathumma Whisper Th Large V3

Pathumma Whisper Large V3 is a Thai automatic speech recognition model based on the OpenAI Whisper architecture, supporting Thai and English speech transcription tasks.

Speech Recognition

Transformers Supports Multiple Languages

Whisper Large V3 Turbo German

A fine-tuned model for German speech recognition based on Whisper Large v3, specifically optimized for German speech processing and recognition.

Speech Recognition

Transformers German

W2V2 BERT Withlm Malayalam

A Malayalam automatic speech recognition model fine-tuned based on facebook/w2v-bert-2.0, trained on multiple Malayalam datasets and using a trigram language model trained with the KENLM library.

Speech Recognition

Transformers Other

Faster Whisper Large V3 French Distil Dec16

A distilled French version of Whisper-Large-V3, optimized for inference efficiency by reducing decoder layers while maintaining good performance

Speech Recognition

Transformers French

Whisper Large V2 Atcosim Corpus

This model is a fine-tuned speech recognition model based on openai/whisper-large-v2, achieving a word error rate of 4.6858 on a specific domain dataset.

Speech Recognition

Wav2vec2 Phoneme

A speech recognition model fine-tuned based on facebook/wav2vec2-large-xlsr-53, focusing on phoneme recognition tasks

Speech Recognition

WHISPER SMALL SWAHILI ASR CV 14

This model is a fine-tuned speech recognition model based on OpenAI's Whisper large on the Common Voice 14.0 Swahili (SW) dataset, achieving a word error rate (WER) of 25.13%.

Speech Recognition

Transformers Other

Whisper Small Slovenian

This model is a fine-tuned speech recognition model based on openai/whisper-small on the Slovenian ASR dataset ARTUR 1.0, supporting Slovenian speech-to-text tasks.

Speech Recognition

Transformers Other

Whisper Small Turkish V2

A speech recognition model fine-tuned on the Turkish Common Voice dataset based on OpenAI Whisper-small

Speech Recognition

Transformers Other

Indic Whisper Nodcil

IndicWhisper is a cutting-edge speech recognition model optimized for Indian languages, excelling in various benchmark tests for Indian languages.

Speech Recognition Other

Indic Whisper Hi Multi Gpu

IndicWhisper is a cutting-edge speech recognition model optimized for Indian languages, excelling in various benchmarks for Indian languages.

Speech Recognition Other

Whisper Th Large V3 Combined

This is a Thai automatic speech recognition model fine-tuned based on OpenAI's Whisper Large V3 model, achieving a 6.59% word error rate on the Common Voice 13 Thai test set.

Speech Recognition

Haitian Speech To Text

A Whisper-based speech recognition model optimized for Haitian Creole, featuring high-accuracy speech-to-text conversion

Speech Recognition

Transformers Other

Parakeet Tdt 1.1b

Parakeet TDT 1.1B is an automatic speech recognition (ASR) model jointly developed by NVIDIA NeMo and Suno.ai, capable of transcribing speech into lowercase English letters.

Speech Recognition English

Wav2vec2 Bert CV16 En

An automatic speech recognition (ASR) model fine-tuned on the Common Voice 16.0 English dataset based on w2v-bert-2.0

Speech Recognition

Transformers English

Whisper Large V3 French Distil Dec8

This is a distilled version of the Whisper-Large-V3 French model, optimized for inference speed and memory usage by reducing the number of decoder layers while maintaining good performance.

Speech Recognition

Transformers French

Whisper Large V3 Atco2 Asr

A speech recognition model fine-tuned based on OpenAI Whisper-large-v3, specializing in Air Traffic Control (ATCO) scenarios with a word error rate of 17.04%

Speech Recognition

Whisper Small Turkish Tr Best

Turkish speech recognition model fine-tuned based on OpenAI Whisper-small, with a word error rate of 26.34%

Speech Recognition

Asr Conformer Transformerlm Librispeech

An automatic speech recognition model based on the SpeechBrain framework, using a Conformer encoder and Transformer decoder, trained on the LibriSpeech dataset, supporting English speech recognition.

Speech Recognition English

Whisper Small Ko

Korean speech recognition model based on the Whisper Small architecture, fine-tuned on multi-domain Korean datasets

Speech Recognition

Transformers Korean

Git Base Pokemon

An image caption generation model fine-tuned from microsoft/git-base, trained on Pokemon image dataset

Transformers Other

Whisper Medium Et

Whisper-medium model fine-tuned on approximately 800 hours of diverse Estonian data, suitable for general speech recognition scenarios

Speech Recognition

Whisper Telugu Large V2

A Telugu automatic speech recognition model fine-tuned based on OpenAI Whisper-large-v2, trained on multiple public Telugu datasets

Speech Recognition Other

Whisper Telugu Base

A Telugu automatic speech recognition (ASR) model fine-tuned based on OpenAI Whisper-base, trained on multiple public Telugu datasets

Speech Recognition Other

Whisper Large V2 Slovenian

This model is a speech recognition model fine-tuned on the Common Voice 11.0 Slovenian dataset based on OpenAI's Whisper Large-V2 model, with a word error rate of 13.83%.

Speech Recognition

Transformers Other

Whisper Kannada Tiny

A Kannada automatic speech recognition model fine-tuned based on openai/whisper-tiny, trained on multiple public Kannada ASR corpora

Speech Recognition Other

Whisper Large V2 Hindi 2.5k Steps

This is a Hindi automatic speech recognition (ASR) model fine-tuned based on OpenAI Whisper Large V2, trained on the Common Voice 11.0 dataset with a word error rate (WER) of 10.05%.

Speech Recognition

Transformers Other

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase